Optimisation des approximations de probabilité des requêtes en XML probabiliste
نویسندگان
چکیده
XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l’intégration incertaine de données, l’extraction d’informations ou le contrôle probabiliste de versions. Nous explorons dans ce travail une solution efficace pour l’évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour l’approximation de la probabilité d’une requête booléenne sur un document probabiliste. L’approche repose sur, d’une part, la production de la provenance probabiliste de la requête posée, et, d’autre part, la recherche d’une stratégie optimale pour estimer la probabilité de cette provenance. Cette deuxième partie s’inspire des approches des optimiseurs de requêtes : l’exploration de différents plans d’évaluation pour différentes parties de la formule et l’estimation du coût de chaque plan, suivant un modèle de coût établi pour les algorithmes de calcul utilisés. Nous démontrons l’efficacité de cette approche sur des jeux de données utilisés dans des travaux précédents sur l’interrogation des bases de données XML probabilistes, ainsi que sur des données synthétiques.
منابع مشابه
Contrôle de version incertaine dans l ’ édition collaborative ouverte de documents arborescents
En vue de faciliter l’enrichissement, l’échange et le partage de contenu, les plates-formes collaboratives Web telles que Wikipedia ou Google Docs permettent des interactions à large échelle entre un grand nombre de contributeurs. Cette collaboration ne requiert pas une connaissance préalable du niveau d’expertise et de fiabilité des participants. La gestion de version est donc essentielle pour...
متن کاملOptimal Probabilistic Generators for XML Corpora
We study the problem of, given a corpus of XML documents and its schema, finding an optimal probabilistic model (optimality meaning maximizing the likelihood of the corpus to be generated). We present an efficient algorithm for finding the best probabilistic model, in absence of constraints. We further study the problem in presence of integrity constraints (key, inclusion, and domain constraint...
متن کاملNettoyage des données XML : combien ça coûte ?
Résumé. L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d’un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préa...
متن کاملIntégration de la structure dans un modèle probabiliste de documents
Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont ...
متن کاملModèle probabiliste pour l'extraction de structures dans les documents web
RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applica...
متن کامل